国家估计是自主系统的重要组成部分。已显示整合超宽带(UWB)技术可以纠正长期估计漂移并绕过环路闭合检测的复杂性。但是,机器人技术中很少有作品采用UWB作为独立的状态估计技术。这项工作的主要目的是仅使用UWB范围测量结果研究平面姿势估计,并研究估计器的统计效率。我们证明了两步方案的出色属性,该方案说,我们可以通过高斯 - 纽顿迭代的一步来完善一致的估计器在渐近上有效。基于此结果,我们设计了GN-uls估计器,并通过模拟和收集的数据集进行评估。GN-uls在我们的静态数据集上达到毫米和次级水平的准确性,并在我们的动态数据集中达到厘米和学位水平的精度,从而提出了仅将UWB用于实时状态估计的可能性。
translated by 谷歌翻译
在计算机视觉和摄影测量协会中,Perspective-N-Point(PNP)问题已被广泛研究。随着功能提取技术的开发,单镜头可能会提供大量功能点。有望设计一个一致的估计器,即,随着点的数量增加,估计值可以收敛到真实的摄像头姿势。为此,我们提出了一个一致的PNP求解器,称为\ emph {cpnp},并消除了偏差。具体而言,线性方程是通过原始投影模型通过测量模型修改和可变消除构建的,基于该模型,基于该模型的最小二乘解决方案。然后,我们分析并减去该溶液的渐近偏置,从而产生一致的估计值。此外,执行高斯 - 纽顿(GN)迭代以完善一致的解决方案。我们提出的估计器在计算方面有效 - 它具有$ O(n)$计算复杂性。关于合成数据和真实图像的实验测试表明,就估计精度和计算时间而言,我们提出的估计量优于一些具有密集视觉特征的图像的知名图像。
translated by 谷歌翻译
由于多药的组合被广泛应用,因此准确的药物相互作用(DDI)的准确预测变得越来越关键。在我们的方法中,我们使用图代表药物相互作用:节点代表药物;边缘代表药物相互作用。基于我们的假设,我们将DDI的预测转换为链接预测问题,利用已知的药物节点特性和DDI类型来预测未知的DDI类型。这项工作提出了一个图形距离神经网络(GDNN),以预测药物 - 药物相互作用。首先,GDNN通过目标点方法生成节点的初始特征,完全包括图中的距离信息。其次,GDNN采用改进的消息传递框架来更好地生成每个药物节点嵌入式表达式,全面考虑节点和边缘的特征。第三,GDNN聚集了嵌入式表达式,经过MLP处理以生成最终预测的药物相互作用类型。 GDNN在OGB-DDI数据集上实现了hits@20 = 0.9037,证明GDNN可以有效地预测DDI。
translated by 谷歌翻译
近年来,视频实例细分(VIS)在很大程度上是通过离线模型提出的,而在线模型由于其性能较低而逐渐吸引了关注。但是,在线方法在处理长期视频序列和正在进行的视频中具有固有的优势,而由于计算资源的限制,离线模型失败了。因此,如果在线模型可以比离线模型获得可比甚至更好的性能,那将是非常可取的。通过解剖当前的在线模型和离线模型,我们证明了性能差距的主要原因是由特征空间中不同实例之间相似外观引起的框架之间存在错误的关联。观察到这一点,我们提出了一个基于对比度学习的在线框架,该框架能够学习更多的歧视实例嵌入,以进行关联,并充分利用历史信息以达到稳定性。尽管它很简单,但我们的方法在三个基准测试上都优于在线和离线方法。具体来说,我们在YouTube-VIS 2019上实现了49.5 AP,比先前的在线和离线艺术分别取得了13.2 AP和2.1 AP的显着改善。此外,我们在OVIS上实现了30.2 AP,这是一个更具挑战性的数据集,具有大量的拥挤和遮挡,超过了14.8 AP的先前艺术。提出的方法在第四次大规模视频对象分割挑战(CVPR2022)的视频实例细分轨道中赢得了第一名。我们希望我们方法的简单性和有效性以及对当前方法的见解,可以阐明VIS模型的探索。
translated by 谷歌翻译
姿势估计对于机器人感知,路径计划等很重要。机器人姿势可以在基质谎言组上建模,并且通常通过基于滤波器的方法进行估算。在本文中,我们在存在随机噪声的情况下建立了不变扩展Kalman滤波器(IEKF)的误差公式,并将其应用于视觉辅助惯性导航。我们通过OpenVINS平台上的数值模拟和实验评估我们的算法。在Euroc公共MAV数据集上执行的仿真和实验都表明,我们的算法优于某些基于最先进的滤波器方法,例如基于Quaternion的EKF,首先估计Jacobian EKF等。
translated by 谷歌翻译
初步任务设计需要高效且准确地近似于低推力的聚合轨迹,这可能通常是三维的并且涉及多次转。本文开发了一种用于分析近似的使用立方样条函数的新成形方法,其显示了最优性和计算效率的优点。在假设预先指定立方样条函数的边界条件和段数,全部满足边界状态和转移时间的约束约束。然后根据是否具有自由优化参数,配制两种特定形状。没有自由参数的形状提供了有效且稳健的估计,而另一个则允许随后的优化来满足诸如推力幅度上的约束的额外约束。所提出的方法与粒子群优化算法结合的应用通过两个典型的行星际的间行序列任务讨论,即,从地球到小行星狄俄尼索斯的倾斜的多转轨迹和样本返回的多串轨迹。仿真示例表明,在为全球搜索的良好估计和为随后的轨迹优化产生合适的初始猜测方面,所提出的方法优于现有方法。
translated by 谷歌翻译
在这项工作中,我们呈现SEQFormer,这是一个令人沮丧的视频实例分段模型。 SEQFormer遵循Vision变换器的原理,该方法模型视频帧之间的实例关系。然而,我们观察到一个独立的实例查询足以捕获视频中的时间序列,但应该独立地使用每个帧进行注意力机制。为此,SEQFormer在每个帧中定位一个实例,并聚合时间信息以学习视频级实例的强大表示,其用于动态地预测每个帧上的掩模序列。实例跟踪自然地实现而不进行跟踪分支或后处理。在YouTube-VIS数据集上,SEQFormer使用Reset-50个骨干和49.0 AP实现47.4个AP,其中Reset-101骨干,没有响铃和吹口哨。此类成果分别显着超过了以前的最先进的性能4.6和4.4。此外,与最近提出的Swin变压器集成,SEQFormer可以实现59.3的高得多。我们希望SEQFormer可能是一个强大的基线,促进了视频实例分段中的未来研究,同时使用更强大,准确,整洁的模型来实现该字段。代码和预先训练的型号在https://github.com/wjf5203/seqformer上公开使用。
translated by 谷歌翻译
Machine learning (ML) models can leak information about users, and differential privacy (DP) provides a rigorous way to bound that leakage under a given budget. This DP budget can be regarded as a new type of compute resource in workloads of multiple ML models training on user data. Once it is used, the DP budget is forever consumed. Therefore, it is crucial to allocate it most efficiently to train as many models as possible. This paper presents the scheduler for privacy that optimizes for efficiency. We formulate privacy scheduling as a new type of multidimensional knapsack problem, called privacy knapsack, which maximizes DP budget efficiency. We show that privacy knapsack is NP-hard, hence practical algorithms are necessarily approximate. We develop an approximation algorithm for privacy knapsack, DPK, and evaluate it on microbenchmarks and on a new, synthetic private-ML workload we developed from the Alibaba ML cluster trace. We show that DPK: (1) often approaches the efficiency-optimal schedule, (2) consistently schedules more tasks compared to a state-of-the-art privacy scheduling algorithm that focused on fairness (1.3-1.7x in Alibaba, 1.0-2.6x in microbenchmarks), but (3) sacrifices some level of fairness for efficiency. Therefore, using DPK, DP ML operators should be able to train more models on the same amount of user data while offering the same privacy guarantee to their users.
translated by 谷歌翻译
Pretrained large-scale vision-language models like CLIP have exhibited strong generalization over unseen tasks. Yet imperceptible adversarial perturbations can significantly reduce CLIP's performance on new tasks. In this work, we identify and explore the problem of \emph{adapting large-scale models for zero-shot adversarial robustness}. We first identify two key factors during model adaption -- training losses and adaptation methods -- that affect the model's zero-shot adversarial robustness. We then propose a text-guided contrastive adversarial training loss, which aligns the text embeddings and the adversarial visual features with contrastive learning on a small set of training data. We apply this training loss to two adaption methods, model finetuning and visual prompt tuning. We find that visual prompt tuning is more effective in the absence of texts, while finetuning wins in the existence of text guidance. Overall, our approach significantly improves the zero-shot adversarial robustness over CLIP, seeing an average improvement of over 31 points over ImageNet and 15 zero-shot datasets. We hope this work can shed light on understanding the zero-shot adversarial robustness of large-scale models.
translated by 谷歌翻译
Many visual recognition models are evaluated only on their classification accuracy, a metric for which they obtain strong performance. In this paper, we investigate whether computer vision models can also provide correct rationales for their predictions. We propose a ``doubly right'' object recognition benchmark, where the metric requires the model to simultaneously produce both the right labels as well as the right rationales. We find that state-of-the-art visual models, such as CLIP, often provide incorrect rationales for their categorical predictions. However, by transferring the rationales from language models into visual representations through a tailored dataset, we show that we can learn a ``why prompt,'' which adapts large visual representations to produce correct rationales. Visualizations and empirical experiments show that our prompts significantly improve performance on doubly right object recognition, in addition to zero-shot transfer to unseen tasks and datasets.
translated by 谷歌翻译